Národní úložiště šedé literatury Nalezeno 33 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Rozpoznávání ručně psaného textu pomocí konvolučních sítí
Sladký, Jan ; Kišš, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Tato práce se zabývá rozpoznáváním ručně psaného textu za pomoci konvolučních neuronových sítí. Ze současných metod byl vybrán model sítě skládající se z konvolučních a rekurentních sítí s Connectionist Temporal Classification. Do takovéhoto modelu byl následně implementován prvek Vertical Attention Module, který vybírá relevantní informace v každém sloupci odpovídající textu na obrázku. Tento modul byl následně pomocí experimentů porovnáván s dalšími možnostmi vertikální agregace mezi konvoluční a rekurentní sítí. Experimenty probíhaly na datové sadě obsahující přes 80 000 řádků textu z českých dopisů 20. století. Výsledky ukazují, že Vertical Attention Module dosahuje téměř vždy nejlepších výsledků na všech použitých typech konvolučních sítí. Výsledná síť dosáhla nejlepšího výsledku při chybě 8,9% na znak. Přínosem této práce je neuronová síť s nově zavedeným prvkem, která dokáže rozpoznávat řádky textu.
Holistické rozpoznání registrační značky pomocí konvolučních neuronových sítí
Le, Hoang Anh ; Hradiš, Michal (oponent) ; Špaňhel, Jakub (vedoucí práce)
Cílem práce bylo vytvořit holistický rozpoznávač registračních značek, kde byl kladen důraz  na dosáhnutí co nejvyšší přesností na snímcích horší kvality.  Byla navrhnuta a implementována kombinace konvoluční  a rekurentní neuronové sítě, implementované  pomocí LSTM a CTC, kde vstupem jsou výřezy získané z celé značky. Dále byly také implementovány konkurenční sítě pro porovnání výsledků. Sítě byly porovnány na celkem 4 datových sadách, a výsledkem bylo, že vlastní návrh dosáhl nejlepších výsledků s celkovou přesností rozpoznávání 97.6%.
Radio Modulation Recognition Networks
Pijáčková, Kristýna ; Maršálek, Roman (oponent) ; Götthans, Tomáš (vedoucí práce)
The bachelor thesis is focused on radio modulation classification with a deep learning approach. There are four deep learning architectures presented in the thesis. Three of them use convolutional and recurrent neural networks, and the fourth uses a transformer architecture. The final number of parameters of each model was considered during the design phase, as it can have a big impact on a memory footprint of a deployed model. The architectures were written in Keras, which is a software library, which provides a Python interface for neural networks. The results of the architectures were additionally compared to results from other research papers on this topic.
Rekurentní neuronové sítě pro rozpoznávání řeči
Nováčik, Tomáš ; Karafiát, Martin (oponent) ; Veselý, Karel (vedoucí práce)
Tato diplomová práce se zabývá implementací rekurentních neuronových sítí v prostředí jazyka lua za pomocí knihovny torch. Řeší problematiku trénování rekurentních neuronových sítí a to jak z hlediska optimální trénovací strategie, tak z hlediska urychlení trénovacího procesu. Zkoumá zakomponování technik batch normalizace a dropout do architektur rekurentních neuronových sítí. Jednotlivé typy rekurentních sítí jsou následně porovnány na úkolu rozpoznávání řeči prostřednictvým datové sady AMI, kde slouží pro modelování akustického modelu, a dochází ke srovnání s klasickou dopřednou neuronovou sítí. Nejlepší výsledek je dosažen prostřednictvým rekurentní neuronové sítě BLSTM. Následně dojde k natrénování rekurentních neuronových sítí prostřednictvím objektivní funkce CTC na databázi TIMIT, kde nejlepšího výsledku opět dosáhne BLSTM.
Visual Question Answering
Kocurek, Pavel ; Ondřej, Karel (oponent) ; Fajčík, Martin (vedoucí práce)
Visual Question Answering (VQA) is a system where an image and a question are used as input and the output is an answer. Despite many research advances, unlike image captioning, VQA is rarely used in practice. This work aims to narrow the gap between research and practice. To examine the possibility of using VQA by blind and visually impaired people, this thesis proposes a demonstrative VQA application and then, a smartphone application. The study with 20 participants from the community was conducted. Firstly, the participants received an application for two weeks. Then, each of them was asked to fill out the questionnaire. 80 % of respondents rated the accuracy of VQA application as sufficient or better and most of them would appreciate it if their image captioning application also supported VQA. Following this discovery, this work tries to establish the link between image captioning and VQA. In particular, the work studies the informativeness provided by both systems in different scenarios. It collects a novel dataset of 111 images with manually annotated captions and diverse scenes. An experiment comparing obtained knowledge showed a success rate of 69.9 % and 46.2 % for VQA and image captioning, respectively. In another experiment 70.9 % of the time, participants were able to select the correct caption based on VQA. The results suggest that VQA outperforms image captioning regarding image details, therefore should be used in practice more often.
An automatic football match event detection
Dvonč, Tomáš ; Říha, Kamil (oponent) ; Přinosil, Jiří (vedoucí práce)
This diploma thesis describes methods suitable for automatic detection of events from video sequences focused on football matches. The first part of the work is focused on the analysis and creation of procedures for extracting informations from available data. The second part deals with the implementation of selected methods and neural network algorithm for corner kick detection. Two experiments were performed in this work. The first captures static information from one image and the second is focused on detection from spatio-temporal data. The output of this work is a program for automatic event detection, which can be used to interpret the results of the experiments. This work may figure as a basis to gain new knowledge about the issue and also to the further development of detection events from football.
Image Captioning with Recurrent Neural Networks
Kvita, Jakub ; Španěl, Michal (oponent) ; Hradiš, Michal (vedoucí práce)
In this work I deal with automatic generation of image captions by using multiple types of neural networks. Thesis is based on the papers from MS COCO Captioning Challenge 2015 and character language models, popularized by A. Karpathy. Proposed model is combination of convolutional and recurrent neural network with encoder--decoder architecture. Vector representing encoded image is passed to language model as memory values of LSTM layers in the network. This work investigate, whether model with such simple architecture is able to generate captions and how good it is in comparison to other contemporary solutions. One of the results is that the proposed architecture is not sufficient for any image captioning task.
Image based smoke and fire detection
Ďuriš, Denis ; Burda, Karel (oponent) ; Přinosil, Jiří (vedoucí práce)
This diploma thesis deals with the detection of fire and smoke from the image signal. The approach of this work uses a combination of convolutional and recurrent neural network. Machine learning models created in this work contain inception modules and blocks of long short-term memory. The research part describes selected models of machine learning used in solving the problem of fire detection in static and dynamic image data. As part of the solution, a data set containing videos and still images used to train the designed neural networks was created. The results of this approach are evaluated in conclusion.
Využití hlubokého učení pro rozpoznání textu v obrazu grafického uživatelského rozhraní
Hamerník, Pavel ; Špaňhel, Jakub (oponent) ; Lysek, Tomáš (vedoucí práce)
Optické rozpoznání znaků (OCR) je již mnoho let oblastí zájmu. Je definován jako proces digitalizace obrazu dokumentu do sekvence znaků. Navzdory desetiletím intenzivních výzkumů jsou systémy OCR, které jsou srovnatelné s lidským zrakem, stále otevřenou výzvou. V této práci je vytvořen návrh takového systému, je implementován, který je schopen detekovat text v grafických uživatelských rozhraních.
Zvyšování konzistence v datových sadách pro rozpoznávání textu
Tvarožný, Matúš ; Hradiš, Michal (oponent) ; Kišš, Martin (vedoucí práce)
Táto práca sa zaoberá zvyšovaním konzistencie dátových sád pre rozpoznávanie textu. V tejto práci sú popísane problémy, ktoré nekonzistenciu spôsobujú a následne sú predstavené riešenia na jej odstránenie. Skúmaný je vplyv vlastností polygónov definujúcich ohraničenie riadkov a teda to ako upravená verzia dátovej sady, ktorá je zložená z ideálnych variant riadkov ovplyvnila presnosť modelu. Ďalej sa práca zameriava na detekciu a následné odstránenie alebo upravenie riadkov, ktorých prepis ground truth nekorešponduje so skutočným textom, ktorý sa na nich nachádza. Experimentovaním sa ukázalo, že odstránenie vizuálnej nekonzistencie na trénovacej sade nemá zásadný vplyv na natrénovanosť modelu, za to poupravením testovacej sady sa presnosť OCR modelu zlepšila o 1.1\% CER. Upravením dátovej sady tak, aby neobsahovala navzájom nekonzistentné dvojice rozpoznávaného textu a príslušnej ground truth, sa model po opätovnom natrénovaní zlepšil maximálne len o 0.2\% CER. Hlavným zistením tejto práce je predovšetkým preukázaný priaznivý účinok odstránenia nekonzistencie na testovacích sadách, vďaka ktorému je možné zistiť reálnejšiu chybovosť OCR modelu.

Národní úložiště šedé literatury : Nalezeno 33 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.